Il dataset di partenza viene preso dalla libreria schrute. Contiene tutte le linee di dialogo dette nelle 9 stagioni di the Office organizzate per persoanggio ed episodio. Sono presenti anche i ratings ricevuti su IMDB per i vari episodi.
2022-06-25
Il dataset di partenza viene preso dalla libreria schrute. Contiene tutte le linee di dialogo dette nelle 9 stagioni di the Office organizzate per persoanggio ed episodio. Sono presenti anche i ratings ricevuti su IMDB per i vari episodi.
The Office è una serie televisiva statunitense, è stata girata in una configurazione a telecamera singola – senza il pubblico in studio o le risate registrate – per dare l’idea di un vero documentario. La serie è stata acclamata dal pubblico e dalla critica, aggiudicandosi diversi premi. The Office segue le vite di ogni giorno dei dipendenti della Dunder Mifflin-Scranton, guidati dal direttore della filiale Michael Scott.
1.Vogliamo vedere ovviamente chi ha piu battute e chi compare piu spesso nello show
2.Vogliamo indagare sulle parole piu dette
3.Vogliamo scoprire quali sentimenti porta questa serie tramite le parole usate
4.Vogliamo trovare il personaggio piu scurrile
e molte altre cose…
Ovviamente Michael!
Nelle ultime stagioni la mancanza di Michael nel nostro ufficio preferito ha cambiato le carte in tavola
Inoltre notiamo che i personaggio presenti sono quelli del ufficio dalla prima stagione,non potevamo certo aspettarci altro
Come vediamo Michael e quello piu presente in tutti gli episodi tranne che per le ultime 2 stagioni dove fa solo da comparsa
## ## Pearson's product-moment correlation ## ## data: frequency$Michael and frequency$Dwight ## t = 84.087, df = 3309, p-value < 2.2e-16 ## alternative hypothesis: true correlation is not equal to 0 ## 95 percent confidence interval: ## 0.8141764 0.8359127 ## sample estimates: ## cor ## 0.8253501
## ## Pearson's product-moment correlation ## ## data: frequency$Jim and frequency$Dwight ## t = 59.491, df = 2295, p-value < 2.2e-16 ## alternative hypothesis: true correlation is not equal to 0 ## 95 percent confidence interval: ## 0.7622438 0.7944534 ## sample estimates: ## cor ## 0.7788616
## ## Pearson's product-moment correlation ## ## data: frequency$Jim and frequency$Michael ## t = 99.117, df = 2443, p-value < 2.2e-16 ## alternative hypothesis: true correlation is not equal to 0 ## 95 percent confidence interval: ## 0.8867176 0.9025266 ## sample estimates: ## cor ## 0.8949025
Identifica le parole importanti per un documento(o personaggio nel nostro caso)in una collezione di documenti.
Grazie ad esso riusciamo a vedere le parole piu importanti per i nostri beniamini.
(ovviamente Andy parla di tonno)
| bigram | n |
|---|---|
| you know | 1774 |
| i don’t | 1728 |
| this is | 1367 |
| in the | 1343 |
| and i | 1259 |
| going to | 1213 |
| no no | 1196 |
| are you | 1129 |
| i have | 1124 |
| do you | 1111 |
Si vede che al nostro caro Andy piace come nickname
Durante il corso dell’intera serie viene detto 37 volte
*** Gara d’insulti vinta da Dwight!!
Notiamo che dopo meta serie i voti iniziano a calare in media, ma in generale il rating rimane alto